1 Introducción

El desplazamiento forzado es uno de los problemas más graves y persistentes que enfrenta Colombia. La violencia generada por los conflictos armados, el accionar de grupos ilegales y el deterioro de la seguridad en diversas regiones del país han ocasionado un desplazamiento masivo de millones de colombianos. Y este problema no ha hecho mas que empeorar, de hecho según La Defensoría del Pueblo se reportó un incremento significativo, reflejando un alarmante deterioro en la seguridad, con más de 13.500 personas desplazadas solo en los primeros cinco meses de este año (2024) [1].

Aunque Santander no es uno de los departamentos con la mayor cantidad de casos de desplazamiento en Colombia, el problema sigue siendo una realidad en esta región. Entre las personas desplazadas, hay estudiantes que se ven directamente afectados por esta situación. Con este estudio, buscamos comprender mejor como son estos estudiantes. De aquí surge nuestra pregunta de investigación: ¿Cuáles son las características de los estudiantes en situación de desplazamiento en los municipios no certificados de Santander?

Para abordar este problema, utilizaremos un dataset proporcionado por la Secretaría de Educación de Santander, que contiene información sobre los estudiantes desplazados matriculados en instituciones educativas de los 82 municipios no certificados del departamento. Este será nuestra herramienta principal para realizar un análisis detallado de la población estudiantil desplazada en la región. A medida que avancemos en el análisis, responderemos preguntas adicionales, tales como: ¿cómo se distribuyen estas poblaciones por género, edad y etnia?, ¿qué tipos de desplazamiento son los más comunes? y ¿cómo se distribuyen los estudiantes según los municipios?

2 Metodología

El dataset utilizado para la realización de este estudio contiene información acerca de estudiantes en sitación de desplazamiento matriculados en instituciones educativas de los 82 municipios no certificados del departamento de Santander. Los datos fueron recopilados y actualizados por la Secretaría de Educación de Santander.

Origen y última actualización

Estructura del dataset

El dataset tiene 22 variables (columnas) y 18.062 registros, con información que abarca desde datos sobre las instituciones educativas hasta características específicas de los estudiantes. Algunas de sus variables mas importantes son:

  • d_ano: año en que se recopilo la informació0.n

  • d_muni y d_nombmuni: código y nombre de los municipios.

  • d_provincia: provincia a la que pertenece el municipio.

  • d_nomsec: naturaleza de la institución (privada u oficial).

  • dane_ant y d_sede: codido DANE anterior de la institución (si aplica) y código DANE actual.

  • d_nombinst: nombre del instituto donde esta matriculado el estudiante.

  • d_grado: grado académico del estudiante.

  • d_genero y edad: edad del estudiante.

  • d_genero, d_hombres, d_mujeres: información relacionada con el género.

  • d_tipo: clasificación según el tipo de desplazamiento.

  • etnia: indica a que grupo étnico pertence el estudiante.

  • discapa: indica si el estudiante tiene una discapacidad.

  • metodo: método educativo del estudiante.

2.1 Paquetes

Para la realización de este proyecto, se utilizaron los siguientes paquetes:

  • library(skimr): este paquete se empleó para obtener un resumen detallado del conjunto de datos. Gracias a él, pudimos explorar las principales características del dataset de manera eficiente.

  • ggplot2: este paquete fue utilizado para crear gráficos de alta calidad. Nos permitió generar diversos diagramas que muestran distribuciones y relaciones entre los datos

  • dplyr: este paquete fue usado para la manipulación de datos. Con él, pudimos filtrar, seleccionar, transformar y resumir la información, facilitando la preparación de los datos necesarios para las visualizaciones.

  • RColorBrewer: este paquete ofrece paletas de colores predefinidas, con el pudimos mejorar la estética de nuestros gráficos y hacerlos visualmente mas atractivos.

  • httr: utilizada para hacer las solicitudes a diferentes API que nos proporcionaron datos relevantes para hacer algunos de los diagramas.

  • jsonlite:: para manejar los datos obtenidos en formato JSON y convertirlos en un formato útil para hacer las visualizaciones.

  • sf: para trabajar con datos geoespaciales, como coordenadas y límites geográficos, utilizada para realizar el mapa de calor.

2.2 Preparación de los datos

Cargado del dataset

Para empezar, cargamos el dataset utilizando la función read.csv(), de esta forma pudimos importar los datos desde el archivo (CSV) para trabajar con ellos.

Exploración del dataset

Antes de empezar con la limpieza de los datos, hicimos una exploración inicial del dataset para entender su contenido y estructura:

  1. Usamos dim() para verificar el número de filas y columnas y str() para explorar que tipo de datos tiene cada columna.

  2. Con summary() y skim() generamos resúmenes estadísticos para entender mejor los valores de las variables.

  3. Con head() y tail() inspeccionamos los registros iniciales y finales del dataset.

  4. También utilizamos sum(is.na(dataset)) para identificar si habian valores faltantes y cuantos eran.

  5. Con unique() y summary() exploramos más a detalle columnas de interés para nuestro estudio.

En base a esta exploración inicial podemos decir lo siguiente sobre el dataset:

  • Tiene 18.062 filas (registros) y 22 columnas (variables)

  • De las 22 variables, 18 son cualitativas nominales, 3 cuantitativas discretas y 1 cualitativa ordinal.

  • El dataset no tiene valores nulos.

  • Hay columnas duplicadas: edad y d_edad contienen los mismos datos, al igual que d_genero con las columnas d_hombres y d_mujeres.

Limpieza de los datos

Tras la exploración, se realizo lo siguiente:

  1. Se eliminaron las columnas edad, d_hombres y d_mujeres porque contenían información duplicada.

  2. Además se eliminaron las columnas d_nomjor y sector, ya que no eran relevantes para el estudio que queriamos hacer.

  3. La columna dane_ant fue convertida de tipo entero a carácter.

  4. Las variables categóricas discapa y d_tipo fueron convertidas a factores para facilitar el análisis.

  5. En la columna discapa, se agruparon y renombraron categorías relacionadas para reducir redundancias y unificar términos.

Posterior a la limpieza de los datos, el dataset se mantuvo con la misma cantidad de registros (18.062) y con 17 columnas. Y quedó de la siguiente manera:

2.3 Análisis exploratorio de los datos

El análisis exploratorio de los datos se estructuró en cuatro partes principales, esto con el objetivo de responder a la pregunta de investigación que nos planteamos al iniciar este estudio. Estas partes son:

Análisis demográfico

En este análisis se exploraron diversas características relacionadas con los estudiantes, como su género, edad, pertenencia étnica, etc. A continuación se explica cómo se realizó cada diagrama:

  • Distribución por género: en este diagrama queríamos mostrar la distribución de los estudiantes por su género (femenino y masculino). Para ello se calcularon las frecuencias absolutas y relativas, se renombraron las categorías a “FEMENINO” y “MASCULINO” para mejorar la interpretación y, por último, se creó un diagrama de torta que ilustra la distribución porcentual.

  • Distribución por edad: la variable edad se analizó dividiéndola por rangos. A partir de estos rangos se creó un diagrama de barras que muestra la frecuencia de estudiantes en cada rango. Además, se crearon dos diagramas más, un gráfico de barras que muestra la distribución de los estudiantes por rangos de edad y género, y un gráfico de cajas que permite visualizar la dispersión y los valores típicos de la edad según el género.

  • Distribución étnica: para hacer este análisis, primero se creó una nueva columna en el dataset que clasifica si los estudiantes pertenecen o no a un grupo étnico. A partir de esta columna se generó un diagrama de torta que muestra estas proporciones. Luego, se filtraron los datos de los estudiantes que sí pertenecen a un grupo étnico y se creó un diagrama de barras con la frecuencia de cada grupo étnico.

  • Distribución por discapacidad: para esta variable se creó también una nueva columna para clasificar si el estudiante tiene o no una discapacidad y, a partir de ahí, se creó un gráfico de torta para mostrar estas proporciones. Luego, se filtraron los datos para solo incluir a los estudiantes con discapacidad y se creó un gráfico de barras que muestra las frecuencias para cada tipo de discapacidad.

  • Distribución por tipo de desplazamiento: para mostrar esta variable se generó un gráfico de barras que muestra la distribución de los estudiantes según el tipo de desplazamiento reportado en el dataset.

Análisis geográfico

Este análisis estuvo centrado en ver cómo los estudiantes se distribuyen de acuerdo a su municipio y tipo de zona.

  • Distribucion de la población por municipio: para hacer este gráfico, se obtuvo la información sobre la población desplazada desde una base de datos en línea (API), y se organizó en una tabla (data frame). Luego, se seleccionaron los datos más relevantes, se corrigieron los nombres y se calcularon valores como la población total por municipio. A continuación, se incorporó la información geográfica, agregando la ubicación de cada municipio. Finalmente, se creó un mapa que mostró la distribución de la población desplazada en Santander, representando los municipios con más desplazados con colores más intensos.

Análisis de las instituciones

El análisis de las instituciones estuvo orientado a explorar aspectos como el número de estudiantes por institución y la clasificación de estas según diferentes criterios.

  • Distribución por sector:

  • Distribución por zona: para realizar este diagrama se obtuvieron los datos sobre las instituciones, enfocándose en si eran rurales o urbanas. Luego se organizó la información seleccionando los datos relevantes y se contó cuántas instituciones pertenecían a cada categoría.A partir de esto, se creó un gráfico de torta.

  • Distribución por método educativo:

  • Instituciones con mayor cantidad de estudiantes:

  • Instituciones que han absorbido mas sedes:

Análisis relacional

En este análisis quisimos identificar patrones y conexiones significativas entre diferentes variables.

  • Relación entre el método educativo entre caracteristicas demográficas: para analizar estas relaciones, se obtuvieron datos de la API proporcionada por el sitio oficial donde se aloja el dataset, transformándolos en un formato adecuado para el análisis. Posteriormente, se limpiaron y organizaron los datos, calculando aspectos clave como la cantidad de hombres y mujeres, la población total por grupo étnico y la edad promedio de los estudiantes según el método educativo. Estas relaciones se presentaron mediante diagramas de dispersión.

  • Relación entre los motivos de desplazamiento con el grupo étnico de las personas: para crear este gráfico, al igual que el anterior, los datos se obtuvieron a través de la API, luego se limpiaron y prepararon para realizar la gráfica correspondiente. Se calculó la población desplazada según el motivo y el grupo étnico. Finalmente, se generó un gráfico de dispersión en el que el tamaño de los puntos muestra la cantidad de personas desplazadas y los colores distinguen los grupos étnicos.

3 Resultados

3.1 Análisis demográfico

Enfocado en analizar las características de la población estudiantil desplazada.

¿Cómo se distribuye la población por género?

La distribución por género muestra que el 48.7% de los estudiantes son mujeres (8.801), mientras que el 51.3% son hombres (9.261). Esto indica que, aunque la mayoría de los estudiantes son hombres, la diferencia en términos de género es relativamente pequeña.

¿Cuál es la distribución de la población por edades?

El rango de 11 a 15 años es el que agrupa la mayor parte de la población, con 7.068 registros. Le sigue el rango de 15 a 19 años con 5.118 registros, y luego el de 7 a 11 años, con 4.842 registros.

También se analizó la distribución de las edades por género. En el rango de 11 a 15 años, se registraron 3.457 mujeres y 3.611 hombres. En el rango de 15 a 19 años, la distribución es de 2.496 mujeres y 2.622 hombres, mientras que en el rango de 7 a 11 años, hay 2.345 mujeres y 2.497 hombres.

En los únicos rangos donde se registran más mujeres que hombres son 23 a 27 años, con 37 mujeres y 27 hombres; 35 a 39 años, con 12 mujeres y 8 hombres; y en el rango de 59 a 63, con 4 mujeres frente a 1 hombre.

En este gráfico podemos observar que la mediana de la edad en ambos géneros se encuentra aproximadamente en los 13 años, lo que indica que el 50 % de los estudiantes tienen 13 años o menos. El tercer cuartil, que representa aproximadamente al 75 % de los estudiantes, alcanza hasta los 15 años, lo que significa que el 75 % de los registros tienen 15 años o menos.

En cuanto a los bigotes del diagrama, podemos notar que en las mujeres los bigotes inferiores se extienden un poco más abajo que en los hombres. Esto significa que la edad mínima en las mujeres es de aproximadamente 3 años, mientras que en los hombres es de alrededor de 4 años. En ambos géneros, los bigotes superiores se extienden hasta aproximadamente los 23 años. A partir de esa edad comienzan a aparecer los outliers.

La presencia de tantos outliers indica que hay una pequeña cantidad de estudiantes fuera del rango típico de edad, pero estos valores atípicos son muy variados en cuanto a la edad. En el caso de las mujeres, los outliers se extienden hasta los 62 o 63 años, mientras que en los hombres llegan aproximadamente hasta los 69 años.

¿Cómo se distribuye la población según la etnia?

La distribución de la población según la etnia muestra que el 98.2 % de los estudiantes no pertenece a ningún grupo étnico, mientras que solo el 1.8 % (322 personas) sí pertenece a alguno.

De estas 322 personas, la mayoría pertenece al grupo étnico de las negritudes, seguido de 72 personas que se identifican como afrodescendientes.

¿Qué proporción de la población tiene alguna discapacidad?

El 97.6% de la población no tiene ninguna discapacidad, lo que representa una gran mayoría en comparación con el 2.4% (442 personas) que sí presentan alguna discapacidad.

En el gráfico siguiente, podemos observar que la mayoría de las 442 personas tienen discapacidad mental, con un total de 190 casos. Les siguen las personas con discapacidad psicosocial, que suman 91 en total.

¿Cuáles son los tipos de desplazamiento más comunes?

En el diagrama, podemos observar que los tres tipos de desplazamiento con más registros son los siguientes: el más frecuente es “VÍCTIMA”, con un total de 12.532 registros, lo que representa la mayoría de los casos. En segundo lugar, se encuentra la categoría “EN SITUACIÓN DE DESPLAZAMIENTO”, con 3.951 registros, y el tercer tipo más común es “DESPLAZAMIENTO FORZADO”, con 1.034 registros.

3.2 Análisis geográfico

Enfocado en analizar cómo se distribuye la población.

¿Cómo está distribuida la población entre los diferentes municipios?

Al analizar el mapa de la población desplazada en Santander, podemos observar una marcada desigualdad en su distribución. Cimitarra destaca como el municipio con el mayor número de estudiantes desplazados, lo cual se evidencia en su color amarillo intenso. Por otro lado, municipios como Betulia y Barichara presentan las cifras más bajas, reflejadas en tonos azules, lo que indica una menor incidencia del desplazamiento en estas zonas.

Es importante resaltar que la concentración de municipios con alta población desplazada se observa principalmente en la zona sur del departamento. Los tonos azules y morados que predominan en esta región del mapa sin mencionar Cimitarra con su fuerte tono amarillo nos indican que un gran número de localidades se encuentran afectadas por esta problemática.

3.3 Análisis de las instituciones

Enfocado en analizar las instituciones educativas y su relación con la población desplazada.

¿A qué sector pertenecen las instituciones en donde estudian las personas desplazadas?

¿A qué zona pertenecen las instituciones en donde estudian las personas desplazadas?

En esta distribución podemos observar que la mayoria de las instituciones se encuentra en zona urbana con un 56.9 % frente a un 43.1 % en las zonas rurales.

¿Qué método educativo es más común entre los estudiantes desplazados?

¿Cuáles son los institutos con mayor número de estudiantes desplazados?

3.4 Análisis relacional

Enfocado en explorar correlaciones o patrones entre las variables del dataset.

¿Existe relación entre el método educativo y características demográficas como género, étnica y edad?

## [1] "Datos descargados con éxito."

4 Discusión

Interpretación de los resultados, discutir si los resultados responden a la pregunta hecha inicialmente.

5 Conclusiones

Resumen del problema, resumen de como se abordo el problema (metodologia), ideas interesantes en el analisis, implicaciones para el consumidor, limitaciones de analisis y como se podria mejorar.

6 Referencias

[1] Gómez, L. (2024, June 23). Aumentaron los desplazamientos forzados en Colombia: Más de 13.500 personas han sido víctimas en 2024. Infobae.